查看原文
其他

数据平台建设整体思路阐述和总结

The following article is from 数据僧 Author 数据僧

数据工作的理解

数据的每一次的输出,永远不会有bug,只有对和错。

数据人永远是在怀疑和被怀疑,孤独和寂寞中完成。每次的输出可能只有一个数字,概率,猜测。。。但是其背后可能是一堆人无数个夜晚不断数据处理,验证,分析,最终剩下的东西(精华)。

数据人不能浮躁,不能功利,必须站在中立立场,客观分析,客观给出结论。

必须要有韧性。特别在创业公司,数据体系基本不完整,各线对数据的认知有高有低。数据收益不是那么显而易见,单单数据仓库建设周期就需要3-5年,坚持和持续的建设显得尤为重要.


数据处理流程

数据处理流程


数据收集的途径

埋点

优点:和业务能够紧密结合,支持灵活多变的业务需求。

缺点:有码埋点对业务代码有入侵;无码埋点影响APP性能;有一定维护成本。


爬虫(没做过)

优点:可以抓取应用外数据,丰富数据类型

缺点:有一定开发难度;有一定开发和维护成本;需要考虑数据的应用场景

采购(不做详细描述)

优点:获取数据容易

缺点:注意法律红线;需要谨慎考虑数据应用场景

数据库同步

优点:和业务数据高度一致;和业务需求天然具有关联性。

缺点:对业务数据库有性能消耗,需要考虑数据库性能的极限。


数据收集方案

数据收集方案选择顺序:

数据库同步>埋点>爬虫>采购

方法一:根据DB log 日志。例如Sqlserver 开启CTLog,PG 开启WLlog

方法二:Sqoop 进行数据同步。Sqoop支持目前市场主流数据库数据和Hdfs的相互同步

方法三:依赖消息队列开发数据同步工具。


注意:

1,要考虑数据同步的时候 对业务数据库的压力。尽量使用从库,对没有从库的业务一定要考虑让步策略,异常策略,一切以业务正常运行为前提。
2,充分考虑数据安全,在大数据安全不够健全的情况下,一定要对于敏感业务的数据,可以通过脱敏,混淆,隔离等方式处理。



埋点

埋点-前端埋点
场景:主要用于用户行为分析,UI分析,优化用户体验场景,非精准类的数据分析,和后端数据做交叉验证

埋点-服务端埋点
场景:对数据数据库同步方案的补充,大多用做BI统计,对数据精准度有一定要求的数据分析,和前端数据做交叉验证

前端埋点有那些特点
1,埋点变更受发版限制
2,前端数据上报需要在wifi条件下上报数据,数据会有延迟
3,对Key做特殊处理,前端埋点可读性差,需要做好字典
4,前端埋点位置需要注意默认加载位置的埋点,否则会造成埋点数据虚高
5,对前端代码会有入侵

服务端数据埋点有哪些特点
1,埋点变更灵活
2,数据准确度介于数据库同步和前端埋点之间
3,埋点时机,需要在数据写入数据库后
4,对服务端代码会有入侵


前后端埋点如何设计埋点描述内容:什么主体在什么时间做了什么事情

埋点通用设计:公共埋点+业务埋点

埋点格式:JSON结构。因为json具有较好的兼容性,大多数平台都能够比较容易解析。数据传输高效。

埋点原则:

  1.一旦埋点上线,并且被用于数据分析,尽量不要做删除操作,多做追加操作。

  2.埋点设计过程中,不可闭门造车,一定要和充分了解业务,充分沟通,自上而下,从全局到局部做设计。


5,埋点实施特别是对于从0到1 的平台搭建,各个业务线和团队,一定会遇到很大困难,一定要有极强执行力和耐力,否则埋点在初期会推进的非常缓慢,初期基本上需要手把手去引导


埋点监控检查埋点是否错埋

检查埋点是否漏报

埋点字段的类型和上报的数据类型是否一致

非空字段是否有控制


7,异常埋点处理策略如果业务理解透彻,埋点明确,需求交付时间充足,校验机制成熟可靠,异常数据肯定不允许进入后面的数据仓库,但是需要标记并作统计。

如果业务理解模糊,需求交付时间不充足,可以收集,具体使用的时候在做兼容或者其它处理。


收集工具:Flume需要在各个业务服务器安装agent。

管道内存和磁盘设置,数据不易丢失。但是在实际工作中出现过Flume进程不工作的情况,需要健全对Flume的监控,防止数据丢失


数据仓库-设计原则全面且深入了解业务,需要和业务专家深入沟通

数据按照最细粒度组织

基于业务过程

推荐扁平的大宽表设计,易用,效率高,消耗的存储可以忽略


数据仓库架构注意表命名规范。

需要确定各层,各表的业务边界,尽量做到表复用,防止表膨胀或者爆炸,造成无法过多的维护负担


数据仓库几个需要关注的点业务矩阵:是前期调研的方法,我们需要把各个业务过程中的每个环节涉及到哪些维度,尽可能穷举出来。

事实:为了量化,事实数据通常用于计算;维度:为了分组和过滤,用于多维度分析;分区:为了快速定位需要的数据

缓慢变化维:为了历史留痕,分析的主体历史状态可以查询

数据仓库需要数据统一,形同含义的业务的命名不要重复


如何制作业务矩阵,如何确定事实表,如何确定维度,如何处理缓慢变化维,如何处理分区,事实和维度如何划分 不做细节描述


数据仓库的地位和重要性是整个公司的基础数据,一定要保证安全、可靠、平稳、维护简单,上手容易

是未来走过BI阶段 进行数据挖掘、机器学习、神经网络 的基石头,在数据仓库没有稳定之前 数据挖掘等更上层的数据相关的研究会陷入被动。


数据分析-数据分析发展过程

下面数据分析开展的顺序,可以同时进行,但是数据建设的不同阶段重点会不同,整体发展过程如下:

数据分析发展过程:

1,BI报表:常规的市场,运营分析;抽取指标;经验获取;数据感知能力的培养;数据是二维,更多的是定量分析。

2,多维数据分析:数据是三维,多个三维的数据 组成一个数据立方体,最终构成一个完整数据分析矩阵;这里会衍生出更多的指标,和特征;更多的也是定量分析
3,数据挖掘:当数据分析更加复杂,无法通过经验进行合理的分类,无法根据经验提取更多的特征,就需要通过算法模型来处理;这部分还是需要一些经验,人工干预还是比较多一些。定量和定性都会有。
4,机器学习:脱离人工,通过反复训练的出结论,抽取特征。这里更多的是定性分析。
5,神经网络、AI 不懂。
注意:
    这里面的任何一个阶段,数据可视化和数据信息化一致都贯穿始终。如何用正确合适的图标展示数据是数据可视化重点考虑的内容。如何提取数据的重点内容,传递一个完整故事是数据信息化要考虑的内容。


数据分析的内容任何分析,都是基于产品和用户两个主题来进行分析。

问题一:我们的产品被什么样的用户使用

问题二:我们的用户都是在怎么使用产品

这两个问题无法分割,关键看每个分析的需求和场景


数据分析流程

1,经验分析:确定问题和论点,通过经验来定

2,数据准备:数据收集,准备数据,确认数据是否完整

数据处理:统一数据格式,去除重复,增补,数据转换,数据分组

3,数据分析及展现:确定数据分析方法,以及合适的图标
专业报告:背景,目的,分析思路,数据展示,结论和建议
4,跟踪、反馈:根据需求,确定是否需要跟踪和收取反馈,持续迭代优化分析报告。


指标体系建设

目标:最终的指标体系指标间能够交叉验证,粒度统一,数据一致,数据可解释
1,明确分析主体
2,确定分析业务过程,找到核心环节,每个环节的维度
3,确定分析粒度
4,明确收益矩阵,确定优先级


数据应用-产品的增值服务这个最容易实现,有直接让用户付费,也有提高产品粘性,提高产品趣味性。例如:淘宝数据魔方,头条后台数据统计,微博的对每个客户开放的数据分析,微信热搜。


数据应用-内部支撑系统

2B-用户生命周期管理


2B-客户生命周期价值曲线


客户生命周期价值曲线

2C-用户生命周期

2C-用户生命周期

2C用户生命周期价值曲线,没有思考过。


独立的数据产品
大多提供的数据数据分析解决方案。方便用户进行数据分析,更加快速获取数据认知,通过数据支撑自身业务发展。
例如:神策,诸葛,growthingIO 都是抽取通用的分析场景,然后产品化。
最终的数据变现只能通过企业自身去实现。还有咨询类企业 可以直接通过数据变现。



 -End- 


▼ 社区推荐 ▼ 


▼ 十一快乐,回馈读者!自费送33本书『福利』 系列 | 漫谈数仓第二篇NO.2 数仓建模
▼ 福利时刻 ▼ 


01. 公众号后台回复:「快乐」,可参与十一假期33本技术类书籍免费+包邮活动;

02. 公众号后台回复:「加群」,可加入数仓、BI、Python 或 资料分享群。

Q: 关于数据仓库,你还想了解什么?

欢迎留言区与大家分享

觉得不错,请把这篇文章分享给你的朋友哦

投稿请联系小助手:iom1128『紫霞仙子』

更多精彩,请在后台点击“紫霞秘籍”查看

 

 

关注不迷路~ 各种福利、资源定期分享


↓↓↓回馈读者,十一假期 送书福利活动 正在进行中ing...(点击跳转)


十一快乐,回馈读者!自费送33本书!包邮!先到先得!就是这么任性


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存